(12) NACH DEM VERTRAG OBER DIE INTERNATIONALE ZUSAMMENARBEIT AUF DEM GEBIET DES 
PATENTW ESENS (PCT) VEROFFENTLICHTE INTERNATIONALE ANMELDUNG 



(19) Weltorganisation fflr geistiges Eigentum 

Internationales Biiro 

(43) Internationales VeroTfentlichungsdatum 
15. November 2001 (15,11.2001) 




PCT 



(10) Internationale Verdffentlichungsnummer 

WO 01/86634 Al 



(51) Internationale Patentklassifikation 7 : G10L 15/06 

(21) Internationales Aktenzeichen: PCT/DEO 1/0 1546 

(22) Internationales Anmeldedatum: 

24. April 2001 (24.04.2001) 



(25) Einreichungssprache: 

(26) Vertiffenttichungssprache: 



Deutsch 
Deutsch 



(30) Angaben zur Prioritat: 

100 22 586.1 9. Mai 2000 (09.05.2000) DE 

(71) An m elder (fur alle Bestimmungsstaaten mit Ausnahme von 
US): SIEMENS AKTIENGESELLSCHAFT [DE/DEJ; 
Wittelsbacherplatz 2, 80333 Munchen (DE). 



(72) Erfinder; und 

(75) Erfinder/Anmelder (nur fur US): BUDDE, Mark 

[DE/DE]; Agathastr. 8, 46240 Bottrop (DE). SCHNEI- 
DER, Tobias [DE/DE]; Kranzhornstr. 7, 81825 Munchen 
(DE). 

(74) Gemeinsamer Vertreter: SIEMENS AKTIENGE- 
SELLSCHAFT; Postfach 22 16 34, 80506 Munchen 
(DE). 

(81 ) Best i m m u ngsstaat (national): US . 

(84) Bestimmungsstaaten (regional): europaisches Patent (AT, 
BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, 
NL, PT, SE, TR). 

[Fortsetzung auf der ndchsten SeiteJ 



(54) Title: METHOD FOR CREATING A SPEECH DATABASE FOR A TARGET VOCABULARY IN ORDER TO TRAIN A 
SPEECH RECOGNITION SYSTEM 

(54) Bezeichnung: VERFAHREN ZUM ERZEUGEN EINER SPRACHDATENBANK FUR EINEN ZIELWORTSCHATZ ZUM 
TRAINIEREN EINES SPRACHERKENNUNGSSYSTEMS 



00 



( Start > ~S7 



S8 



Umsetzen des Zielwortschatzes in phonetische Beschreibung 



Konkatenierung 



Nachbearbeitung 



-S9 



$10 



( Ende ) ^S11 



S8... .CONVERSION OF THE TARGET VOCABULARY INTO PHONETIC 

DESCRIPTION 
S9... .CONCATENATION 
S1 0. ..SUBSEQUENT PROCESSING 
S11...END 



O (57) Abstract: According to the invention, the words of the target vocabulary are composed of segments, which consist of one or 
^ more phonemes, whereby the segments are derived from a training text that is independent from the target vocabulary. The training 



text can be an arbitrary generic text 



[Fortsetzung auf der ndchsten Seite] 



WO 01/86634 Al I lllll 111 II 



Vertfffentlicht: Zur ErklQrung der Zweibuchstaben-Codes und der anderen 

— mil internationalem Recherchenbericht Abkurzungen wird auf die Erldarungen ("Guidance Notes on 

Codes and Abbreviations") am Anfangjeder regularen Ausgabe 

der PCT-Gazette verwiesen. 



(57) ZusammeofassuDg: ErfindungsgemaB wenden die Worte des Zielwortschatzes aus Segmenten zusammengesetzt, die aus einem 
oder mehreren Phonen bestehen, wobei die Segmente von einem vom Zielwortschatz unabhangigen Trainingstextes abgeleitet sind. 
Der Trainingstext kann ein beliebiger allgemeiner Text sein. 
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Beschreibung 

Verfahren zum Erzeugen einer Sprachdatenbank fttr einen Ziel- 
wortschatz zum Trainieren eines Spracherkennungssystems 

5 

Die Erfindung betrifft ein Verfahren zum Erzeugen einer 
Sprachdatenbank fUr einen Zielwortschatz zum Trainieren eines 
Spracherkennungssystems . 

10 Spracherkennungssysteme gibt es ftir unterschiedlichste Anwen- 
dungen. Z.B. werden in automatischen Diktiersystemen Sprach- 
erkennungssysteme verwendet, die einen sehr umf angreichen 
Wortschatz erkennen konnen, jedoch Ublicherweise benutzerspe- 
zifisch ausgebildet sind, das heiflt, dass sie lediglich von 

15 einem einzigen Benutzer verwendet werden konnen, der das 

Spracherkennungssystem auf seine personliche Aussprache trai- 
niert hat, Automatische Vermittlungssysteme in Telef onanlagen 
verwenden hingegen sprecherunabhangige Spracherkennungssyste- 
me. Diese Spracherkennungssysteme benStigen einen wesentlich 

20 geringeren Wortschatz, da bei Telefonvermittlungssystemen 

z.B. nur wenige unterschiedliche W5rter gesprochen werden, urn 
sich mit einem Fernsprechteilnehmer verbinden zu lassen. 

Herkommlicherweise wurde ftir sprecherunabhangige Spracherken- 
25 nungssysteme. ein Zielwortschatz (Applikationswortschatz) 

festgelegt. Es werden dann Trainingstexte zusammengestellt, 
die Uberwiegend Worter aus diesem Zielwortschatz enthalten. 
Diese Trainingstexte werden von Sprechern gesprochen und iiber 
ein Mikrofon aufgezeichnet . Ublicherweise lasst man einen 
30 solchen Trainingstext von 100 bis 5000 Sprechern sprechen. 
Die gesprochenen Texte liegen somit als elektrische Sprach- 
signale vor. Die zu sprechenden Texte werden auch in ihre 
phonetische Beschreibung umgesetzt. Diese phonetische Be- 
schreibung und die korrespondierenden Sprachsignale werden 
35 wahrend der Trainingsphase des Spracherkennungssystems dem 
Spracherkennungssystem zugeftthrt. Das Spracherkennungssystem 
lernt hierdurch den Zielwortschatz. Da der Zielwortschatz von 
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einer grofien Anzahl von Sprechern gesprochen worden ist, ist 
das Spracherkennungssystem unabhSngig von einem einzelnen be- 
stimmten Sprecher. 

5 Das Erstellen einer spezielle Applikation mit einem vorbe- 
stimmten Zielwortschatz und das Sprechen durch mehrere Spre- 
cher, so dass eine sprecherunabhangige Sprachdatenbank er- 
zeugt wird, dauert in der Regel zwischen zwei bis sechs Mona- 
ten. Das Erstellen derartiger anwendungsspezif ischer Sprach- 

10 datenbanken verursacht den grofiten Kostenfaktor beim Anpassen 
eines bestehenden Spracherkennungssystems an eine bestimmte 
Applikation, Es besteht deshalb ein erheblicher Bedarf nach 
einem Verfahren, mit welchen kostengtinstig und schnell eine 
Sprachdatenbank zum Trainieren eines sprecherunabhangigen 

15 Spracherkennungssystems erstellt werden kann. 

Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfah- 
ren zum Erzeugen einer Sprachdatenbank fttr einen Zielwort- 
schatz zum Trainieren eines Spracherkennungssystems zu schaf- 
20 fen, mit welchem schneller und vor allem kostengiinstiger die 
Sprachdatenbank erzeugt werden kann. 

Die Aufgabe wird durch ein Verfahren mit den Merkmalen des 
Anspruchs 1 gelost. Vorteilhafte Ausgestaltungen der Erf in- 
25 dung sind in den Unteransprlichen angegeben. 

Gemafl dem erf indungsgemafien Verfahren zum Erzeugen einer 
Sprachdatenbank ftir einen Zielwortschatz zum Trainieren eines 
Spracherkennungssystems werden 
30 die Worte des Zielwortschatzes in eine phonetische Beschrei- 
bung umgesetzt, so dass die einzelnen Worte durch Phoneme 
dargestellt werden, und 

aus einem oder mehreren Phonen zusammengesetzte Segmente ei- 
nes gesprochenen, vom Zielwortschatz unabhangigen Trainings- 
35 textes, werden zu Wortern des Zielwortschatzes entsprechend 
der phonetischen Beschreibung konkateniert bzw. zusammenge- 
setzt. 
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Mit dem erf indungsgemafien Verfahren werden Segmente eines vom 
Zielwortschatz unabhangigen Trainingstextes zu den Wortern 
des Zielwortschatzes zusammengesetzt . Der Trainingstext kann 
somit ein beliebiger bereits vorab auf gezeichneter und in 
5 einzelne Sprachsegmente segment ierter Text sein. Zum Erzeugen 
der Sprachdatenbank ist es deshalb nicht notwendig, jedes Mai 
einen den Zielwortschatz enthaltenden Trainingstext zu 
erstellen und auf zuzeichnen. Es ist vielmehr moglich, vorhan- 
dene Sprachdatenbanken mit allgemeinen Wortschatzen zu ver- 

10 wenden. Die WSrter dieser vorhandenen Sprachdatenbanken wer- 
den vorab segmentiert . Diese Segmentierung kann manuell oder 
automatisch erfolgen. Grundsatzlich gentigt es, dass fttr jede 
Sprache eine derartig segmentierte Datenbank lediglich ein 
einziges Mai vorliegt. Ausgehend von dieser Datenbank wird 

15 mit dem erf indungsgemafien Verfahren eine fttr eine Applikation 
spezifische Sprachdatenbank erzeugt. Ein erneutes Sprechen 
eines Trainingstextes ist somit nicht notwendig. 

Mit dem erf indungsgemafien Verfahren kann schnell und kosten- 
20 gtinstig eine zum Trainieren eines sprecherunabhangigen 

Spracherkennungssystems geeignete Sprachdatenbank erzeugt 
werden, wobei es nicht notwendig ist, dass spezielle Trai- 
ningstexte auf gezeichnet werden, wodurch die Kosten im Ver- 
gleich zu den bekannten Methoden zum Erstellen derartiger 
25 Sprachdatenbanken drastisch vermindert werden. 

Vorzugsweise werden die Wdrter des Zielwortschatzes aus mog- 
lichst langen Segmenten zusammengesetzt . Sollte dies nicht 
m6glich sein, mtlssen den einzelnen Phonemen der Wdrter rela- 
30 tiv kurze Segmente mit jeweils einem einzigen Phon zugeordnet 
und zu dem entsprechenden Wort konkateniert werden. Dies er- 
folgt vorzugsweise unter BerUcksichtigung des Kontextes, in 
dem die jeweiligen Phoneme der W6rter und der Phone des Trai- 
ningstextes angeordnet sind. 

35 
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Nach einer weiteren bevorzugten Ausftlhrungsform werden konka- 
tenierte Segmente an ihren Grenzen zwischen zwei benachbarten 
Segmenten geglattet. 

5 Die Segmente konnen in Form von elektrischen Sprachsignalen 
oder als Merkmalsvektoren vorliegen. Letztere Darstellungs- 
form ist vorteilhaft, da der Datenumfang der Merkmalsvektoren 
deutlich geringer als der der elektrischen Sprachsignale ist. 

10 Die Erfindung wird nachfolgend beispielhaft anhand der bei- 
liegenden Zeichnungen naher erlautert. In denen zeigen sche- 
matisch: 



Fig. 1 ein Verfahren zum Aufbereiten eines auf gezeichneten 
15 Trainingstextes ftir das erf indungsgemafie Verfahren, 

Fig. 2 einen allgemeinen Uberblick tiber die Ablaufe beim 
erfindungsgemaften Verfahren zum Erzeugen einer 
Sprachdatenbank in einem Flussdiagramm, 

20 

Fig. 3 das Verfahren zum Konkatenieren der Worter des 
Zielwortschatzes aus Sprachsegmenten in einem 
Flussdiagramm, und 

25 Fig. 4 ein Computersystem zum Ausftlhren des erfindungsge- 
maJJen Verfahren in einem Blockschaltbild. 



Das erfindungsgemafle Verfahren betrifft im Allgemeinen das 
Konkatenieren bzw. Zusammensetzen von Wortern eines Zielwort- 
30 schatzes aus Segmenten eines gesprochenen Textes. 

Der Zielwortschatz ist phonetisch zu beschreiben, das heiflt, 
dass die einzelnen Worte durch Phoneme dargestellt sind. Die 
Segmente sind aus einzelnen Phonen zusammengesetzt. 

35 

Im Sinne der vorliegenden Beschreibung der Erfindung ist ein 
Phonem die kleinste bedeutungsunterscheidende, aber nicht 
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selbst bedeutungstragende sprachliche Einheit (z.B. b in Bein 
im Unterschied zu p in Pein) . Ein Phon ist hingegen der aus- 
gesprochene Laut eines Phonems. Phoneme werden in einer Laut- 
schrift dargestellt, wobei jeder „Buchstabe* der Lautschrift 
5 ein Phonem darstellt. Phone werden durch physikalische Grdfien 
dargestellt, die den ausgesprochenen Laut an sich wiederge- 
ben. Diese physikalischen GrS&en konnen elektrische Sprach- 
signale sein, die an einem Lautsprecher in entsprechende a- 
kustische, den Laut darstellende Signale gewandelt werden 

10 kdnnen. Phone konnen jedoch auch durch sogenannte Merkmals- 
vektoren dargestellt werden. Merkmalsvektoren umfassen Koef- 
fizienten, die das entsprechende Sprachsignal zu einem be- 
stimmten Zeitpunkt wiedergeben. Derartige Koef f izienten wer- 
den durch Abtasten des Sprachsignals in vorbestimmten Zeitab- 

15 standen erhalten. Typische Zeitabstande sind 10 ms bis 25 ms. 
Bekannte Koef f izienten sind die ACF-Koeff izienten (Auto- 
Correlation-Function) und die LPCC-Koeff izienten (Linear- 
Predictive-Cepstral Coeffizient) . 

20 Die obigen Erlauterungen konnen dahingehend kurz zusammenge- 
fasst werden, dass Phoneme die symbolische Beschreibung ein- 
zelner Laute und Phone die physikalische Beschreibung der 
Laute sind, 

25 Nachfolgend wird anhand von Fig. 1 ein Verfahren zum Aufbe- 
reiten eines Trainingstextes in Sprachsegmente erlautert, wo- 
bei ,die Sprachsegmente ein oder mehrere Phone umfassen. 

Das Verfahren beginnt im Schritt SI. Im Schritt S2 werden von 
30 mehreren Sprechern ein oder mehrere Trainingstexte gesprochen 
und elektronisch aufgezeichnet . 

Die elektronisch aufgezeichneten Trainingstexte werden im 
Schritt S3 zur Datenreduktion in Merkmalsvektoren umgesetzt. 

35 

Die derart gespeicherte Sprachauf zeichnung wird im Schritt S4 
in Segmente aufgeteilt, wobei die einzelnen Segmente jeweils 
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ein einziges Phon umfassen. Diese Segmentierung wird in der 
Regel automatisch durchgeftthrt . Die Sprachauf zeichnung kann 
jedoch bereits vor der Umsetzung in Merkmalsvektoren manuell 
von einem Sprachexperten vorsegmentiert werden. 

5 

Diese jeweils ein einziges Phon umfassenden Segmente werden 
im Schritt S5 statistisch erfasst, wobei typische Laute und 
Lautfolgen statistisch ausgewertet und festgehalten werden . 
Diese statistischen Informationen tiber die Lautfolgen ergeben 

10 in Verbindung mit den Segmenten, die jeweils nur ein einziges 
Phon enthalten, eine Darstellung der im Trainingstext enthal- 
tenen Segmente mit mehreren Phonen wieder. Hierdurch stehen 
fUr die weitere Auswertung nicht nur Segmente mit einem ein- 
zigen Phon, sondern auch langere Segmente mit zumindest zwei 

15 Phonen zur Verfttgung. 

Im Schritt S5 wird vorzugsweise eine Energie-Normierung der 
einzelnen Segmente ausgefuhrt, da die unterschiedlichen Spre- 
cher tiblicherweise mit einer unterschiedlichen Lautstarke 
20 sprechen, so dass die einzelnen Segmente unterschiedlicher 
Sprecher nicht miteinander vergleichbar und oftmals auch 
nicht zu einem neuen Wort zusammensetzbar sind. 

Dieses Verfahren zum Aufbereiten der Segmente wird im Schritt 
25 S6 beendet. 

Mit dem in Fig. 1 gezeigten Verfahren zum Aufbereiten eines 
Trainingstextes wird eine Segmentdatenbank erstellt. Grund- 
satzlich gentigt es, dass fttr jede Sprache, fttr die das erf in- 

30 dungsgemafie Verfahren angewendet werden soil, lediglich eine 
einzige Segmentdatenbank erstellt wird. Als Trainingstexte 
werden allgemeine Texte verwendet, die ftir die wichtigsten 
Sprachen bereits als Datenbank in Form von beispielsweise ei- 
ner ASCII-Datei ftir die Texte und in Form von Sprachsignalen 

35 in grofiem Umfang existieren. 
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In Fig. 2 ist der allgemeine Ablauf des erf indungsgemafien 
Verf ahrens zum Erzeugen einer Sprachdatenbank far einen vor- 
gegebenen Zielwortschatz in Form eines Flufcdiagrammes darge- 
stellt. 

5 

Der Zielwortschatz liegt als Textdatei (z.B. ASCII-Datei) 
vor. Der Zielwortschatz umfasst die ftir die beabsichtigte Ap- 
plication notwendigen W5rter. Solche Zielwortschatze kSnnen 
beispielsweise nur wenige Worter (z.B. 20 bis 50 Worter) um- 
10 fassen, die beispielsweise zum Ansteuern eines bestimmten Ge- 
rates notwendig sind. Es ist jedoch auch moglich, noch klei- 
nere mit sogar nur einem einzigen Wort oder auch groflere 
Zielwortschatze vorzusehen, die beispielsweise einige tausend 
Worter umfassen. 

15 

Das Verfahren zum Erzeugen einer Sprachdatenbank beginnt mit 
dem Schritt S7. Im Schritt S8 werden die Worter des Zielwort- 
schatzes in ihre phonetische Beschreibung umgesetzt. Hierzu 
sind regelbasierte Verfahren bekannt, die automatisch eine 
20 derartige Umsetzung vornehmen. Grundsatzlich ist es auch mog- 
lich, statistische Verfahren zu verwenden. Neuere Verfahren 
zum Umsetzen einer Textdatei in ihre phonetische Schreibweise 
beruhen auf neuronalen Netzwerken. 

25 Im darauffolgenden Schritt S9 werden die Segmente des Trai- 
ningstextes zu den einzelnen W5rtern des Zielwortschatzes 
konkateniert . Hierbei werden Segmente, deren Phone den Phone- 
men der Worter des Zielwortschatzes entsprechen zu den ent- 
sprechenden WSrtern zusammengesetzt bzw. konkateniert. 

30 

Sind alle WGrter des Zielwortschatzes konkateniert, kann im 
Schritt S10 eine Nachbearbeitung durchgeftihrt werden. Hierbei 
wird bspw. eine Datenreduktion durchgeftihrt, falls die konka- 
tenierten Worter als Sprachsignal vorliegen. 

35 

Im Schritt Sll ist das Verfahren beendet. 
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In Fig- 3 sind in einem Flussdiagramm die einzelnen beim Kon- 
katenieren auszufiihrenden Verf ahrensschritte dargestellt. 

Dieser Konkateniervorgang beginnt mit dem Schritt S12. Zu- 
5 nachst wird im Schritt S13 ein Wort des Zielwortschatzes aus— 
gewahlt, das zu Konkatenieren ist. 

Im Schritt S14 wird versucht, das ausgewahlte Wort mittels 
einem einzigen oder wenigen langen Segmenten zusammen zu set- 
10 zen. Hierbei werden aus der Segmentdatenbank Segment e ausge- 
wahlt, deren Phonemzuordnung mit den Phonemen des zu konkate- 
nierenden Wortes tibereinstimmt . 

Im Schritt S15 wird abgefragt, ob das Wort aus den langen 
Segmenten erfolgreich konkateniert werden konnte. Ist das Er- 
gebnis dieser Abfrage nein, so bedeutet dies, dass keine ge- 
eigneten langen Segmente in der Segmentdatenbank vorhanden 
sind, aus welchen das Wort zusammengesetzt werden kann. Der 
Verfahrensablauf geht deshalb auf den Schritt SI 6 ttber, bei 
dem das Wort aus einzelnen Phonemen unter BerUcksichtigung 
des entsprechenden Kontextes konkateniert wird. Hierbei wer- 
den Segmente mit einem einzigen Phon den korrespondierenden 
Phonemen des zu konkatenierenden Wortes zugeordnet, wobei je- 
doch nur Phone verwendet werden, deren benachbarte Phone im 
Trainingstext den zu dem jeweiligen Phonem benachbarten Pho- 
nemen im zu konkatenierenden Wort entsprechen. Wird z.B. das 
Phon „f* dem Phonem „f* im Wort „Anfang* zugeordnet, so wird 
ein Segment mit dem Phon „f* aus dem Trainingstext gewahlt, 
das im Trainingstext zwischen den Phonen „n* und „a* angeord- 
net ist. Der Kontext „nfa* des Segmentes „f* stimmt somit mit 
dem Kontext des Phonems „f* des Wortes aus dem Zielwortschatz 
Uberein. 

Im Schritt S17 wird geprttft, ob das zu konkatenierende Wort 
35 vollstandig konkateniert werden konnte. Ergibt diese Uberprii- 
fung ein „nein*, so geht der Verfahrensablauf auf den Schritt 
S18 Uber. Im Schritt S18 werden ftlr diejenigen Phoneme, denen 
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noch keine Segmente zugeordnet werden konnten, Segmente aus- 
gewahlt, deren Phon mit dem entsprechenden Phonem moglichst 
tlbereinstimmt und deren Kontext moglichst Shnlich ist. Sind 
keine Segmente mit Phonen, die den Phonemen unmittelbar ent- 
5 sprechen, vorhanden, werden solche Segmente ausgewahlt, deren 
Phone den Phonemen moglichst ahnlich sind. 

Die Ahnlichkeit der Kontexte bzw. der Phone zu den einzelnen 
Phonemen wird nach vorbestimmten Regeln beurteilt. Diese Re- 

10 geln konnen z.B. als Listen in einer speziellen Ahnlichkeits- 
datenbank abgespeichert sein, wobei zu jedem Phonem eine Lis- 
te weiterer Phoneme gespeichert ist, und die weiteren Phoneme 
mit abnehmender Ahnlichkeit sortiert sind. Zu dem Phonem „p* 
ist z.B. folgende Liste mit „b, d, t, . gespeichert. Dies 

15 bedeutet, dass das Phonem „b* am ahnlichsten zu dem Phonem 
„p* ist und das Phonem „d* das zweitahnlichste Phonem ist. 
Die Ahnlichkeitsdatenbank kann auch Kontexte mit zwei oder 
mehreren Phonemen umfassen. Zum Kontext ,r_a_s* wird z.B. die 
Liste //_a_f, _a_x, . abgespeichert. Dies bedeutet, dass 

20 der Kontext «_a_f* am ahnlichsten zu „_a_s* ist. Die Reihen- 
folge der gespeicherten ahnlichen Phoneme kann sich je nach 
der Definition des Kriteriums der „Ahnlichkeit* unterschei- 
den. Die oben verwendete Notation „_a_s* ist eine firmenin- 
terne Notation und bedeutet: 

25 _a_s: Phonem a mit Rechtskontext s 
_a_x: Phonem a mit Rechtskontext x 
t_a_: Phonem a mit Linkskontext t 
p_a_: Phonem a mit Linkskontext p usw. 

30 Anstelle derartiger Listen oder in Erg&nzung zu diesen Listen 
konnen auch allgemeine Regeln zum Vergleich von ahnlichen 
Kontexten vorgesehen sein. So k5nnen in einem Kontext z.B. 
Plosive oder Frikative grundsatzlich als sehr ahnlich beur- 
teilt werden. 

35 

Nach dem Zuordnen der ahnlichsten Segmente zu den entspre- 
chenden Phonemen des zu konkatenierenden Wortes geht der Ver- 
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fahrensablauf auf den Schritt S19 fiber. Sollte sich bei den 
abfragenden Schritten S15 und S17 ergeben, dass die Konkate- 
nierung erfolgreich ausgeftihrt worden ist, so geht auch hier 
der Ver fahrensablauf unmittelbar auf den Schritt SI 9 Uber. 

5 

Im Schritt S19 erfolgt die Endbearbeitung der einzelnen kon- 
katenierten Worter. Diese Endbearbeitung kann folgende Teil- 
schritte einzeln oder in Kombination umfassen: 

10 Am Anfang und am Ende eines soeben konkatenierten Wortes 

wird eine ftir den Anfang und das Ende des Wortes typische Ge- 
rSLuschsequenz angefttgt. 

Die einzelnen Segmente in den Wortern werden normiert. 
15 Dies ist insbesondere zweckmaMg, wenn eine Segmentdatenbank 
mit nicht-normierten Segmenten verwendet wird. 

Die Oberg^nge an den Grenzen zwischen zwei benachbarten 
Segmenten werden gegiattet, wobei die erste und die zweite 
20 Ableitung des Sprachsignals oder der Koef f izienten der Merk- 
malsvektoren an der Obergangsstelle moglichst 0 betragt. 

Im Schritt S20 wird geprUft, ob noch ein weiteres Wort des 
Zielwortschatzes zu konkatenieren ist. Ergibt die Abfrage ein 
25 ja, so geht der Verf ahrensablauf auf den Schritt S13 uber, 
wohingegen das Verfahren im Schritt S21 beendet wird, falls 
die Abfrage ein nein ergibt. 



30 



Die mit dem erf indungsgemafien Verfahren konkatenierten Worter 
des Zielwortschatzes stellen eine Sprachdatenbank dar, mit 
der ein Spracherkennungssystem auf den Zielwortschatz trai- 
niert werden kann. Zum Erstellen dieser Sprachdatenbank ist 
es nicht notwendig, dass spezielle den Zielwortschatz enthal- 
tende Trainingstexte erstellt werden, die von Sprechern ge- 
35 sprochen und auf gezeichnet werden mussen. Vielmehr konnen 
durch das erf indungsgemaiie Verfahren ein allgemeiner Trai- 
ningstext, der einmal von einem oder mehreren Sprechern ge- 
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sprochen worden ist, und entsprechend segmentiert worden ist, 
zur Erzeugung einer Sprachdatenbank fur einen speziellen 
Zielwortschatz ausgewertet werden. Dies bedeutet einen erheb- 
lichen Zeitgewinn und eine enorme Kosteneinsparung bei der 
5 Erzeugung einer Sprachdatenbank fttr einen speziellen Ziel- 
wortschatz . 

Mit einem sehr vereinfachten Prototypen des erf indungsgemaiJen 
Verfahrens ist ein Zielwortschatz mit zehn W6rtern konkate- 

10 niert worden, wobei lediglich Segmente mit einem oder zwei 

Phonen berttcksichtigt worden sind. Bei diesem Prototypen wur- 
de weder eine Normierung vorgenommen, noch die Uberg^nge zwi- 
schen benachbarten Segmenten geglattet. Zudem beruhte die 
Segmentdatenbank auf einem Trainingstext mit nur 60 unter- 

15 schiedlichen W6rtern. 

Trotz dieser sehr geringen Datenmenge und des stark verein- 
fachten Verfahrens ist eine Erkennungsrate von ca. 80% er- 
zielt worden. 

20 

Die Erfindung ist oben anhand eines Ausfiihrungsbeispiels na- 
her eriautert worden. Sie ist jedoch nicht auf das konkrete 
Ausftthrungsbeispiel beschrankt. So ist es z.B. im Rahmen der 
Erfindung mSglich, far jedes Phonem eines zu konkatenierenden 

25 Wortes mehrere Shnliche Segmente aus der Segmentdatenbank 
auszuwahlen und diese dann aufgrund ihrer Ahnlichkeit zum 
Phonem bzw. zum Kontext der aus zwei, drei, vier oder mehre- 
ren Phonemen bestehen kann, zu bewerten. Das ahnlichste Seg- 
ment wird ausgewahlt. Es ist jedoch auch mGglich, eine Gruppe 

30 ahnlicher Segmente auszuwahlen und anstelle ein einzelnes 
Segment zu bestimmen, das dem Phonem zugeordnet wird, aus 
dieser Gruppe von Segmenten ein mittleres Segment zu berech- 
nen, das dem Phonem zugeordnet wird. Dies ist insbesondere 
dann zweckmafiig, wenn die Phone der Segmente durch Merkmals- 

35 vektoren beschrieben werden, die gemittelt werden konnen. An- 
stelle einer Mittlung der mehreren Segmente kann auch ein 
Segment bestimmt werden, dessen Abstand (Vektorabstand der 
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Merkmalsvektoren) zu den ausgewahlten Segmenten am geringsten 
ist. 

Das erfindungsgem&fie Verfahren kann als Computerprogramm rea- 
5 lisiert werden, das selbststandig auf einem Computer zum Er- 
zeugen einer Sprachdatenbank aus einer Segmentdatenbank ab- 
laufen kann. Es stellt somit ein automatisch ausftihrbares 
Verfahren dar. 

10 Das Computerprogramm kann auf elektrisch lesbaren Datentra- 
gern gespeichert werden und so auf andere Computersysteme U- 
bertragen werden. 

Ein zur Anwendung des erf indungsgemafien Verfahrens geeignetes 

15 Computersystem ist in Fig. 4 gezeigt. Das Computersystem 1 

weist einen internen Bus 2 auf, der mit einem Speicherbereich 
3, einer zentralen Prozessoreinheit 4 und einem Interface 5 
verbunden ist. Das Interface 5 stellt iiber eine Datenleitung 
6 eine Datenverbindung zu weiteren Computersystemen her. An 

20 dem internen Bus 2 sind ferner eine akustische Eingabeeinheit 
7, eine grafische Ausgabeeinheit 8 und eine Eingabeeinheit 9 
angeschlossen. Die akustische Eingabeeinheit 7 ist mit einem 
Lautsprecher 10, die grafische Ausgabeeinheit 8 mit einem 
Bildschirm 11 und die Eingabeeinheit 9 mit einer Tastatur 12 

25 verbunden. An dem Computersystem 1 kann beispielsweise iiber 
die Datenleitung 6 und das Interface 5 ein Zielwortschatz tt- 
bertragen werden, der im Speicherbereich 3 abgespeichert 
wird. Der Speicherbereich 3 ist in mehrere Bereiche unter- 
teilt, in denen der Zielwortschatz, das Programm zum Ausfiih- 

30 ren des erf indungsgemaJien Verfahrens und weitere Anwendungs- 
und Hilfsprogramme gespeichert sind. Mit dem erf indungsgema- 
Jien Verfahren wird eine Sprachdatenbank zum Zielwortschatz 
erstellt. Diese Sprachdatenbank wird dann zum Trainieren ei- 
nes Spracherkennungs systems verwendet. Das Spracherkennungs- 

35 system kann eingehende Audiodateien in Text-Dateien automa- 
tisch umsetzen. Die Audiodateien konnen durch Sprechen eines 
Testes in das Mikrofon 10 erzeugt werden. 
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Patentanspriiche 

5 1. Verfahren zum Erzeugen einer Sprachdatenbank fur einen 

Zielwortschatz zum Trainieren eines Spracherkennungssystems, 
wobei 

die Worte des Zielwortschatzes in eine phonetische Be- 
schreibung umgesetzt werden {SB), so dass die einzelnen Worte 
10 durch Phoneme dargestellt werden, und 

aus einem oder mehreren Phonen zusammengesetzte Segmente 
eines gesprochenen, vom Zielwortschatz unabhangigen Trai- 
ningstextes, zu W5rtern des Zielwortschatzes entsprechend der 
phonetischen Beschreibung konkateniert werden (S9) . 

15 

2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, 

dass moglichst lange Segmente ausgewahlt werden, aus wel- 
chen die WSrter konkateniert werden. 

20 

3. Verfahren nach Anspruch 2, 
dadurch gekennzeichnet, 

dass zu den einzelnen Segmenten Kontextinformationen von 
einem oder mehrerer benachbarter Phone im Trainingstext ge- 

25 speichert sind (S5), und falls nicht alle Phoneme eines Wor- 
tes aus Segmenten mit mindestens zwei Phonen konkatenierbar 
sind, Segmente mit jeweils einem einzigen Phon ausgewahlt 
werden, deren Phone den nicht aus langeren Segmenten konkate- 
nierbaren Phonemen im zu konkatenierenden Wort entsprechen 

30 und deren Kontextinformationen mit den Kontexten dieser Pho- 
neme im zum konkatenierenden Wort tibereinstimmen (S17) . 

4. Verfahren nach Anspruch 3, 
dadurch gekennzeichnet, 

35 dass beim Konkatenieren von Segmenten mit einzelnen Pho- 

nen, falls keine Segmente deren Kontextinformation mit den 
Kontexten der Phoneme des zu konkatenierenden Wortes Uberein- 
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stimmen, vorhanden sind, Segmente mit jeweils einem einzigen 
Phon ausgewahlt werden, deren Phone den nicht aus lSLngeren 
Segmenten konkatenierbaren Phonemen im zu konkatenierenden 
Wort entsprechen und deren Kontextinf ormationen mit den Kon- 
5 texten dieser Phoneme im zum konkatenierenden Wort moglichst 
ahnlich sind (SI 8) . 



5. Verfahren nach einem der Ansprtiche 1 bis 4 
dadurch gekennzeichnet, 

dass die zu konkatenierten Segmente an den Grenzen zwi- 
schen zwei benachbarten Segmenten gegiattet werden (SI 9) . 

6. Verfahren nach einem der Ansprtiche 1 bis 5, 

dadurch gekennzeichnet, 

dass die einzelnen Segmente vor dem Konkatenieren ener- 
gienormiert werden (SI 9) . 



7. Verfahren nach einem der Ansprtiche 1 bis 6, 
dadurch gekennzeichnet, 
dass die Segmente in Form von elektrischen Sprachsignalen 
vorliegen. 



8. Verfahren nach einem der Ansprtiche 1 bis 6, 
dadurch gekennzeichnet, 
dass die Segmente durch Merkmalsvektoren dargestellt 
sind. 



9. Verfahren hach Anspruch 8, 
dadurch gekennzeichnet, 
dass falls beim Auswahlen der Segmente vor dem Konkate- 
nieren mehrere dem Phonem bzw, den Phonemen des zu konkate- 
nierenden Wortes zuordbare Segmente vorhanden sind, ein Seg- 
ment entweder durch Mitteln der Merkmalsvektoren der zuordba- 
ren Segmente oder dasjenige Segment bestimmt wird, dessen 
Merkmalsvektor den geringsten mittleren Abstand zu den zuord- 
baren Segmenten besitzt. 
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10. Verfahren nach einem der Ansprtlche 1 bis 9, 
dadurch gekennzeichnet, 

dass die zu Worten konkatenierten Segmente einer Datenre- 
duktion unterzogen werden. 

5 

11. Vorrichtung zum Erzeugen einer Sprachdatenbank fiir 
einen Zielwortschatz zum Trainieren eines Spracherkennungs- 
systems, mit 

einem Computersystem (1), das einen Speicherbereich (3) 
10 aufweist, in dem ein Computerprogramm zum Ausftihren eines 

Verfahrens nach einem der Ansprtlche 1 bis 10 gespeichert ist. 
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